Summary Statistics এবং Correlation Analysis

Machine Learning - এইচ২ও (H2O) - Exploratory Data Analysis (EDA)
263

Summary Statistics

Summary statistics বা সারাংশ পরিসংখ্যান হলো একটি ডেটা সেটের মূল বৈশিষ্ট্যগুলি দ্রুত এবং সহজভাবে বিশ্লেষণ করার জন্য ব্যবহৃত পরিসংখ্যান। এটি ডেটার সারাংশ তুলে ধরার জন্য ব্যবহৃত কিছু মৌলিক পরিসংখ্যানগত মেট্রিক্স সরবরাহ করে, যেমন:

1. Mean (গড়):

গড় হলো ডেটা সেটের সমস্ত মানের যোগফলকে ডেটা পয়েন্টের সংখ্যা দিয়ে ভাগ করার ফল। এটি ডেটার সাধারণ মাত্রা বা কেন্দ্রীয় প্রবণতাকে দেখায়।

  • ফর্মুলা: Mean=i=1nxin\text{Mean} = \frac{\sum_{i=1}^{n} x_i}{n} যেখানে xix_i প্রতিটি ডেটা পয়েন্ট এবং nn মোট পয়েন্টের সংখ্যা।

2. Median (মধ্যম):

মধ্যম হলো ডেটা সেটের মাঝের মান। যখন ডেটা গুলি সাজানো থাকে, তখন মধ্যম হলো সেই মান যা মাঝখানে অবস্থান করে। যদি ডেটার সংখ্যা বিজোড় হয়, তাহলে একক মান হবে; যদি সোজা হয়, তাহলে দুটি মানের গড়।

3. Mode (সর্বাধিক পুনরাবৃত্ত মান):

Mode হলো ডেটা সেটের সবচেয়ে বারবার পাওয়া মান। এটি ডেটার প্রবণতাকে চিহ্নিত করতে সহায়ক।

4. Standard Deviation (প্রমিত বিচ্যুতি):

প্রমিত বিচ্যুতি হল একটি পরিসংখ্যান যা ডেটা পয়েন্টের গড় থেকে কতটুকু বিচ্যুত হতে পারে তা পরিমাপ করে।

  • ফর্মুলা: Standard Deviation=i=1n(xiμ)2n\text{Standard Deviation} = \sqrt{\frac{\sum_{i=1}^{n} (x_i - \mu)^2}{n}} যেখানে xix_i প্রতিটি ডেটা পয়েন্ট, μ\mu গড়, এবং nn মোট ডেটা পয়েন্ট।

5. Variance (বিচ্যুতি):

Variance হলো standard deviation এর বর্গ। এটি ডেটার বিস্তার বা ছড়িয়ে পড়ার পরিমাণকে মাপতে ব্যবহৃত হয়।

  • ফর্মুলা: Variance=i=1n(xiμ)2n\text{Variance} = \frac{\sum_{i=1}^{n} (x_i - \mu)^2}{n}

6. Range (পরিসীমা):

Range হলো ডেটা সেটের সর্বোচ্চ মান এবং সর্বনিম্ন মানের মধ্যে পার্থক্য।

  • ফর্মুলা: Range=Maximum ValueMinimum Value\text{Range} = \text{Maximum Value} - \text{Minimum Value}

7. Quartiles and Interquartile Range (IQR):

Quartiles হলো ডেটা সেটকে চারটি সমান অংশে ভাগ করার পদ্ধতি। IQR হলো তৃতীয় Quartile (Q3Q3) এবং প্রথম Quartile (Q1Q1) এর মধ্যে পার্থক্য।

  • IQR: IQR=Q3Q1\text{IQR} = Q3 - Q1

Correlation Analysis

Correlation analysis হলো দুটি বা তার বেশি ভেরিয়েবলের মধ্যে সম্পর্ক পরিমাপ করার প্রক্রিয়া। এটি সাহায্য করে বুঝতে যে এক ভেরিয়েবল অন্য ভেরিয়েবলের উপর কতটুকু প্রভাব ফেলছে।

1. Correlation Coefficient (পারস্পরিক সম্পর্ক সহগ):

Correlation coefficient একটি পরিসংখ্যানগত মান যা দুটি ভেরিয়েবলের মধ্যে সম্পর্কের শক্তি এবং দিক নির্দেশ করে। এটি -1 থেকে 1 এর মধ্যে থাকে, যেখানে:

  • +1: পূর্ণ ইতিবাচক সম্পর্ক (যেমন, এক ভেরিয়েবল বাড়লে অন্যটি বাড়ে)
  • -1: পূর্ণ নেতিবাচক সম্পর্ক (যেমন, এক ভেরিয়েবল বাড়লে অন্যটি কমে)
  • 0: কোনো সম্পর্ক নেই

Pearson’s Correlation Coefficient:

Pearson’s correlation coefficient সবচেয়ে সাধারণভাবে ব্যবহৃত পরিসংখ্যান যা দুটি ভেরিয়েবলের মধ্যে রৈখিক সম্পর্কের শক্তি পরিমাপ করে।

  • ফর্মুলা: r=nxiyixiyi[nxi2(xi)2][nyi2(yi)2]r = \frac{n \sum{x_i y_i} - \sum{x_i} \sum{y_i}}{\sqrt{[n \sum{x_i^2} - (\sum{x_i})^2][n \sum{y_i^2} - (\sum{y_i})^2]}} যেখানে xix_i এবং yiy_i হল দুটি ভেরিয়েবলের মান এবং nn হল ডেটা পয়েন্টের সংখ্যা।

Spearman’s Rank Correlation:

Spearman’s rank correlation coefficient রৈখিক সম্পর্কের পরিবর্তে, দুটি ভেরিয়েবলের মধ্যে মন্থন সম্পর্ক (monotonic relationship) পরিমাপ করে।

Kendall’s Tau:

Kendall’s tau coefficient দুটি ভেরিয়েবলের মধ্যে সম্পর্কের পরিমাপ করে, বিশেষত যখন ডেটা শ্রেণীবদ্ধ করা হয়।


Correlation Matrix:

Correlation matrix হলো একাধিক ভেরিয়েবলের মধ্যে সম্পর্কের একটি টেবিল। এটি একসাথে সমস্ত ভেরিয়েবলের মধ্যে সম্পর্কের শক্তি এবং দিক প্রদর্শন করে। এটি ডেটা বিশ্লেষণে সাহায্য করে যখন একাধিক ভেরিয়েবলের মধ্যে সম্পর্কের মূল্যায়ন করা দরকার।


Visualizing Correlation:

Correlation visualization গ্রাফিক্যাল উপস্থাপনা দেয়, যেমন:

  • Heatmap: একটি সাধারণ টুল যেখানে একাধিক ভেরিয়েবলের মধ্যে সম্পর্কের শক্তি এবং দিক সম্পর্কিত মানগুলো রঙের মাধ্যমে প্রদর্শিত হয়।
  • Scatter Plot: দুটি ভেরিয়েবলের মধ্যে সম্পর্ক দেখানোর জন্য scatter plot ব্যবহার করা হয়, যেখানে সম্পর্কের ধরন পরিষ্কারভাবে বোঝা যায়।

সারাংশ

  • Summary Statistics: এটি ডেটা সেটের মৌলিক বৈশিষ্ট্য যেমন গড়, প্রমিত বিচ্যুতি, রেঞ্জ, এবং IQR পরিমাপ করে, যা ডেটার সাধারণ প্রবণতা এবং বৈচিত্র্য বুঝতে সাহায্য করে।
  • Correlation Analysis: এটি বিভিন্ন ভেরিয়েবলের মধ্যে সম্পর্ক পরিমাপ করে এবং বিভিন্ন ভেরিয়েবলের মধ্যে রৈখিক বা মন্থন সম্পর্কের শক্তি ও দিক বিশ্লেষণ করে। Pearson, Spearman, এবং Kendall এর মত বিভিন্ন কৌশল আছে যা সম্পর্কের শক্তি পরিমাপ করতে ব্যবহৃত হয়।

এই বিশ্লেষণগুলি ডেটা সায়েন্স এবং মেশিন লার্নিং মডেল তৈরির ক্ষেত্রে ডেটার কাঠামো এবং সম্পর্ক বুঝতে সহায়ক।

Content added By
Promotion
NEW SATT AI এখন আপনাকে সাহায্য করতে পারে।

Are you sure to start over?

Loading...